Yandex SpeechKit Cloud

Продукт

Разработчики:	Яндекс (Yandex), Яндекс.Облако (Yandex.Cloud)
Дата последнего релиза:	2023/12/19
Отрасли:	Интернет-сервисы
Технологии:	SaaS - Программное обеспечение как услуга, ИБ - Биометрическая идентификация, Речевые технологии

Содержание

2023
- Представление 8 дополнительных голосов
- Распознавание речи на узбекском языке
2022
- Интеграция с Just AI Conversational Platform
- Добавление возможности автоматической расстановки знаков препинания
2020: Yandex SpeechKit Pro
2019: Включение в состав IP АТС Standalone от MCN Telecom
2014: Анонс SpeechKit Cloud

Основная статья: Голосовая биометрия

2023

Представление 8 дополнительных голосов

19 декабря 2023 года облачная платформа Yandex Cloud представила 8 новых голосов с разными эмоциями в сервисе Yandex SpeechKit. Теперь компании смогут использовать в синтезе речи приветливую, строгую интонации или даже шепот. Это позволит компаниям-разработчикам менять окраску синтеза речи в зависимости от бизнес-сценария и повышать удовлетворенность клиентов и конверсию в голосовых каналах. Кроме этого, в сервисе появился параметр, который позволяет изменять высоту голоса.

Компании смогут выбирать оптимальный голос под бизнес-сценарий. Например, для опроса удовлетворенности использовать приветливую речь, а для сбора обратной связи о качестве услуг после жалобы клиента выбрать сопереживающую, серьезную интонацию голоса. По данным исследования разработчика голосовых роботов Tomoru, разные типы голосов влияют на конверсию продаж и на восприятие речевых коммуникаций клиентами. Так, женский голос лучше всего работает в рекрутинге — 68% конверсий, а мужской чаще используют в онлайн-образовании — 53% конверсий.

Разнообразие голосов в Yandex SpeechKit позволило сделать диалоги роботов менее шаблонными, нативными. При создании новых голосов разработчики Yandex SpeechKit изменили не только работу модели машинного обучения, но и текстовую базу, которую использовали дикторы. Это позволило улучшить звучание голосов в вопросительных и восклицательных предложениях, которые являются сложной задачей для синтеза речи.

Синтез речи — это популярная технология для автоматизации коммуникаций в контакт-центрах и не только. Нам, как разработчикам, важно в том числе, чтобы диалоги с голосовыми роботами были человечными и комфортными для обычных людей. В будущем мы планируем предоставлять пользователям еще больше новых голосов, - рассказал Григорий Атрепьев, CPO облачной платформы Yandex Cloud.

Распознавание речи на узбекском языке

15 июня 2023 года компания Yandex Cloud сообщила о разработке нейросети, которая может распознавать речь и воспроизводить ее на узбекском языке. Компании как в России, так и в Узбекистане уже могут использовать дополнительный язык в сервисе Yandex SpeechKit для создания голосовых помощников, автоматизации колл-центров и речевой аналитики.

Модели синтеза речи обучались на предзаписи голоса реального диктора. При этом они умеют синтезировать речь не только из текста, но и из его фонемной записи, в которой указаны все особенности звуков в словах. Это позволит клиентам корректировать в синтезе произношение отдельных слов - сложные фамилии, названия товаров, заимствованные выражения. Для этого им нужно будет указать в тексте фонемный разбор нужного слова с помощью специального синтаксиса. Российский рынок ITSM: драйверы и тренды, крупнейшие игроки. Обзор TAdviser 8.1 т

Так же как и для синтеза речи, для распознавания нейросети учатся на примерах. Чтобы их обучить, специалисты Yandex Cloud собрали датасет с тысячами часов аудио и их расшифровками, в том числе короткие и длинные фразы, а также имена, адреса, даты и числа.

Нейросети для синтеза и распознавания узбекского работают с латинским алфавитом, который используется в Узбекистане уже больше 20 лет. При этом алгоритмам пришлось выучить и некоторые звуковые особенности букв. Например, буква «X» обозначает в алфавите твердый [х], а в иностранных словах может произноситься как [кс].

В Узбекистане активно развиваются сценарии, связанные с искусственным интеллектом, в частности с речевыми технологиями. По оценке одного из наших партнеров, объем рынка речевых технологий в Узбекистане может достигать до 395 миллионов минут обработанной речи в год. Появление шестнадцатого языка в Yandex SpeechKit - большой шаг для создания диалоговых сценариев как для узбекских, так и для российских компаний, - рассказал Григорий Атрепьев, директор по продуктам в Yandex Cloud.

Модели доступны на сайте и настраиваются стандартными средствами в API. Синтез и распознавание узбекского языка с помощью Yandex SpeechKit уже начал использовать ряд компаний.

2022

Интеграция с Just AI Conversational Platform

20 сентября 2022 года компания Just AI сообщила об интеграции с Yandex Cloud решений для запуска голосовых AI-проектов в контуре заказчика. Теперь пользователи сервиса для распознавания и синтеза речи Yandex SpeechKit смогут разворачивать полномасштабные голосовые AI-проекты не только в облаке, но и в собственном контуре. Подробнее здесь.

Добавление возможности автоматической расстановки знаков препинания

В Yandex SpeechKit (сервисе для синтеза и распознавания речи) появилась возможность при переводе голоса в текст автоматически расставить знаки препинания. Распознанный нейросетью текст максимально приближен к литературному и проще воспринимается читателем. Об этом компания Яндекс сообщила 20 апреля 2022 года.

Это улучшит опыт пользователей в сценариях, где с речевыми технологиями напрямую взаимодействует человек. Например, общение с голосовым помощником, автоматическое транскрибирование или формирование субтитров.

Пунктуатор разработан с помощью двух последовательно работающих моделей машинного обучения. Первая переводит голос в текст, вторая расставляет знаки препинания в соответствии с нормами русского языка. На апрель 2022 года модель расставляет все основные знаки пунктуации русского языка.

2020: Yandex SpeechKit Pro

23 сентября 2020 года компания платформа Yandex.Cloud представила специализацию сервиса SpeechKit — Yandex SpeechKit Pro. Это программа для компаний-разработчиков, участники которой получат доступ к новым инструментам для создания роботов и голосовых помощников, ориентированных на работу в конкретной отрасли или компании. Такие роботы смогут распознавать слова и команды на определенную тему с максимальным уровнем точности, утверждают в Yandex.Cloud. Новые инструменты помогут оптимизировать сценарии обслуживания в банке, в медицине или в доставке. Также SpeechKit Pro позволяет создавать индивидуальные черты голосового робота: интонации и манеру общения.

К 2020 году синтез и распознавание речи стали самым востребованным ML-сервисом на платформе Yandex.Cloud. По данным разработчиков, с начала года объем потребления SpeechKit вырос на 120%. Количество активных проектов превысило 500. В России уже сформировалась экосистема разработчиков и интеграторов решений, которые по заказу компаний из различных сфер создают и внедряют голосовых роботов для помощи в обработке входящих и исходящих звонков, системы голосового управления в приложениях и терминалах обслуживания клиентов, решения по анализу эффективности бизнес-коммуникаций. На сентябрь это более 20 компаний, большинство из которых — постоянные партнеры платформы Yandex.Cloud. По данным партнеров, за последние два года основными мотивами внедрения голосовых роботов в российских компаниях стали сокращение затрат и быстрое масштабирование решений.

«Вместе с нашими партнерами мы прошли большой путь, за два года сделав Речевые технологии из экзотического сервиса прикладным инструментом бизнеса. Теперь мы делаем следующий шаг и открываем следующий уровень речевых технологий Яндекса для партнеров. Компании-разработчики получат доступ к расширенным возможностям SpeechKit, а заказчики решений смогут выбрать поставщика с наиболее подходящей экспертизой», — прокомментировал Алексей Башкеев, руководитель платформы Yandex.Cloud.

Вместе с интересом бизнеса к возможностям речевых технологий, выросли и требования к точности распознавания в конкретных сценариях взаимодействия голосовых роботов и человека, возможности быстро адаптировать разработки под новые задачи. Например, для компании из сферы доставки принципиально важно, чтобы робот не путался в оценке значений фраз «перенесите заказ» или «занесите заказ», а для телекоммуникационных компаний — чтобы без ошибок отличал фразы «включить услугу» и «отключить услугу». Приоритет бизнеса — точность именно в его сфере, возможность развивать опыт применения в конкретном бизнес-сценарии на основе объективных показателей.

Для решения этих задач Yandex.Cloud предоставляет патнерам дополнительные инструменты разработки в рамках специализации SpeechKit Pro. Теперь компании-партнеры смогут пользоваться разметкой аудиоданных, обучать индивидуальные модели распознавания речи на данных заказчиков, контролировать метрики качества распознавания речи и адаптировать модели распознавания к конкретному потоку данных.

Специализацию SpeechKit Pro уже получили компании Neuro.net, Just.ai, Авиационные технологии связи, Naumen, Robovoice и Voximplant.

2019: Включение в состав IP АТС Standalone от MCN Telecom

29 июля 2019 года компания MCN Telecom сообщила, что добавила сервис Yandex SpeechKit от Яндекса.Облако в IP АТС Standalone, благодаря чему появилась возможность предоставлять крупным клиентам продукт Голосовой помощник на русском языке. Данный функционал может пригодится банкам, финансовым организациям, интернет-магазинам – компаниям, которые применяют в продажах искусственный интеллект (AI) и пр. Подробнее здесь.

2014: Анонс SpeechKit Cloud

4 августа 2014 года компания Яндекс представила SpeechKit Cloud — облачный сервис распознавания речи. С его помощью разработчики могут научить свои продукты понимать голос человека.

Компания сообщила, поддержку SpeechKit Cloud можно добавить в различные программы, сервисы и устройства: от компьютерной игры до автомобильной навигационной системы.

В основе SpeechKit Cloud технология распознавания речи Yandex SpeechKit, которую Яндекс запустил в 2013 году. На 4 августа 2014 года она используется в 400 мобильных приложениях для Android, iOS и Windows Phone.

SpeechKit Cloud "понимает" русский и турецкий языки. Обработка голосовых запросов производится на серверах Яндекса, рассчитанных на высокие нагрузки.

Инфраструктура сервиса спроектирована с учетом высоких нагрузок, чтобы обеспечить доступность и безотказную работу системы при большом количестве одновременных обращений.

Модель взаимодействия (2014)

Взаимодействие со SpeechKit Cloud реализуется через HTTP API. Без установки дополнительного ПО выполняются функции:

голосовой ввод в компьютерных играх и приложениях;
голосовое управление в салоне автомобиля — например, навигационной системой;
интерактивное голосовое меню IVR в телефонии;
голосовой интерфейс систем «Умный дом»;
голосовой интерфейс электронных роботов;
голосовое управление бытовой техникой и т.д.

Источник — «https://finance.tadviser.ru/index.php/%D0%9F%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82:Yandex_SpeechKit_Cloud»

ПРОЕКТЫ (4)	ПРОЕКТЫ НА БАЗЕ (7)	ИНТЕГРАТОРЫ (6)
РЕШЕНИЕ НА БАЗЕ (6)	СМ. ТАКЖЕ (37)	ОТРАСЛИ (7)

Заказчик	Интегратор	Год
- Почта России	Авиационные Технологии Связи (АТС), Neovox, Неовокс (ранее New Contact, Ньюконтакт)	2020.09
- Райффайзенбанк (Raiffeisen Bank)	Райффайзенбанк (Raiffeisen Bank)	2020.08
- Ситилинк	Без привлечения консультанта или нет данных	2019.04
- МегаФон	Астерос, Яндекс (Yandex)	2016.09